其他
十道海量数据处理面试题
点击上方蓝色字体,选择“设为星标”
1、海量日志数据,提取出某日访问百度次数最多的那个IP
2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。
3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。
4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。
5、 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
6、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。
7、腾讯面试题:给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?
8、怎么在海量数据中找出重复次数最多的一个?
9、上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。
10、一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
版权声明:
本文为大数据技术与架构整理,原作者独家授权。未经原作者允许转载追究侵权责任。编辑|群主微信公众号|import_bigdata文章不错?点个【在看】吧! 👇